Confrontation des paradigmes d'utilisation des données : le spectre d'étiquetage

Le succès du déploiement des modèles d'apprentissage automatique dépend essentiellement de la disponibilité, de la qualité et du coût des données étiquetées. Dans les environnements où l'annotation humaine est coûteuse, impossible ou très spécialisée, les paradigmes standards deviennent inefficaces ou échouent complètement. Nous introduisons le spectre d'étiquetage, qui distingue trois approches fondamentales selon la manière dont elles exploitent l'information : Apprentissage supervisé (AS), Apprentissage non supervisé (ANS), et Apprentissage semi-supervisé (ASS).

1. Apprentissage supervisé (AS) : haute fidélité, coût élevé

L'AS fonctionne sur des jeux de données où chaque entrée $X$ est explicitement associée à une étiquette connue, $Y$. Bien que cette méthode atteigne généralement la meilleure précision prédictive pour les tâches de classification ou de régression, son importance sur un étiquetage dense et de haute qualité est très exigeante en ressources. La performance décline fortement si les exemples étiquetés sont rares, rendant ce paradigme fragile et souvent économiquement insoutenable pour des jeux de données massifs et évolutifs.

2. Apprentissage non supervisé (ANS) : découverte de structures latentes

L'ANS opère exclusivement sur des données non étiquetées, $D = \{X_1, X_2, ..., X_n\}$. Son objectif est d'inférer des structures intrinsèques, des distributions de probabilité sous-jacentes, des densités ou des représentations significatives au sein du manifolde de données. Ses applications clés incluent le regroupement (clustering), l'apprentissage de variétés (manifold learning) et l'apprentissage de représentations. L'ANS est particulièrement efficace pour le prétraitement et l'ingénierie de caractéristiques, fournissant des aperçus précieux sans dépendre de l'entrée humaine externe.

Le pont semi-supervisé

Apprentissage semi-supervisé (ASS) constitue un compromis pratique, exploitant un petit jeu de données étiquetées coûteuses ($D_L$) pour ancrer les prédictions tout en tirant parti d'un vaste jeu de données non étiquetées peu coûteuses ($D_U$) pour modéliser la distribution des données. Ce paradigme atténue le goulot d'étranglement lié au coût d'étiquetage, permettant une généralisation robuste dans des scénarios du monde réel.

Diagram of the labeling spectrum showing Supervised, Unsupervised, and Semi-Supervised Learning.

Question 1

Quel paradigme d'apprentissage est spécifiquement conçu pour réduire la dépendance élevée à l'annotation humaine coûteuse en utilisant des données non étiquetées abondantes ?

Apprentissage supervisé

Apprentissage non supervisé

Apprentissage semi-supervisé

Apprentissage par renforcement

Question 2

Si la tâche principale d'un modèle est la réduction de dimensionnalité (par exemple, trouver les composantes principales) ou le regroupement, quel paradigme est universellement utilisé ?

Apprentissage supervisé

Apprentissage semi-supervisé

Apprentissage non supervisé

Apprentissage par transfert

Défi : définir l'objectif de l'ASS

Conceptualisation de la fonction de perte combinée

Contrairement à l'AS, qui s'optimise uniquement sur la fidélité des étiquettes, l'ASS nécessite une stratégie d'optimisation équilibrée. La perte totale doit capter la précision des prédictions sur l'ensemble étiqueté tout en imposant une cohérence (par exemple, lisibilité ou séparation faible en densité) sur l'ensemble non étiqueté.

Étant donné : $D_L$ : Données étiquetées. $D_U$ : Données non étiquetées. $\mathcal{L}_{SL}$ : Fonction de perte supervisée. $\mathcal{L}_{Consistency}$ : Perte imposant une lisibilité des prédictions sur $D_U$.

Étape 1

Écrivez la forme générale de l'objectif d'optimisation totale $\mathcal{L}_{SSL}$, en intégrant un coefficient de pondération $\lambda$ pour la composante de cohérence non étiquetée.

Solution :
La forme conceptuelle de la perte totale ASS est une somme pondérée des deux composantes : $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Le scalaire $\lambda$ contrôle le compromis entre la fidélité aux étiquettes et la dépendance à la structure.